## Logika cyfrowa

Wykład 14: wielocyklowa implementacja RISC V

Marek Materzok

3 czerwca 2024

# Implementacja wielocyklowa

#### Implementacja wielocyklowa – idea

- Podział na ścieżkę sterowania i danych
- Instrukcje wykonywane w wielu cyklach zegara (różna liczba cykli dla różnych instrukcji)
- Pośrednie wyniki zapisywane w dodatkowych rejestrach (niearchitekturalnych)
- Stanowa ścieżka sterowania automat skończony
- Architektura von Neumanna wspólna pamięć dla kodu i danych, zapytania o kod i dane w osobnych cyklach

#### Implementacja jedno- a wielocyklowa

- Implementacja jednocyklowa
  - Plus: prosta
  - Minus: długość cyklu ograniczona czasem wykonania najdłuższej instrukcji (LOAD)
  - Minus: dwa sumatory, dwie szyny pamięci
- Implementacja wielocyklowa
  - Plus: szybsze taktowanie
  - Plus: proste instrukcje wykonywane szybciej od skomplikowanych
  - Plus: reużycie dużych elementów (np. ALU) pomiędzy cyklami
  - Minus: koszt sekwencjonowania płacony wielokrotnie

#### Elementy stanu architekturalnego

Wspólna pamięć dla kodu i danych (architektura von Neumanna):







Pobranie instrukcji



Odczyt rejestrów



Instrukcja OP add rd, rs1, rs2



Adres następnej instrukcji



Instrukcja OP-IMM
addi rd, rs1, imm



Instrukcja OP-IMM
addi rd, rs1, imm



Instrukcja STORE
sw rs2, imm(rs1)



Instrukcja STORE
sw rs2, imm(rs1)



Instrukcja LOAD
lw rd, imm(rs1)



Instrukcja LOAD
lw rd, imm(rs1)



Instrukcja BRANCH
beq rs1, rs2, imm



Instrukcja BRANCH
beq rs1, rs2, imm







Instrukcja JALR (Jump and Link Register) jalr rd, rs1, imm



Instrukcja LUI (Load Upper Immediate) lui rd, imm



Instrukcja LUI (Load Upper Immediate) lui rd, imm



Instrukcja AUIPC (Add Upper Immediate to Program Counter) auipc rd, imm



Gotowe!



Sygnały sterujące i statusu

#### Porównanie ścieżek danych

#### Jednocyklowa:

- 0 dodatkowych rejestrów
- 2 dodatkowe sumatory
- 4 multipleksery
- 7 sygn. sterujących

#### Wielocyklowa:

- 6 dodatkowych rejestrów
- 0 dodatkowych sumatorów
- 5 multiplekserów
- 12 sygn. sterujących

#### Ścieżka sterowania



#### Kontrolery

- Kontroler skoków i ALU bez zmian
- Kontroler główny automatem skończonym
  - Sekwencje stanów zależne od instrukcji
  - Różna liczba cykli dla różnych instrukcji
  - Kontrola nad rejestrami niearchitekturalnymi (przechowującymi "wyniki pośrednie")

1. IN 
$$\leftarrow$$
 mem[PC]  
AL  $\leftarrow$  PC + 4

FETCH

1. IN 
$$\leftarrow$$
 mem[PC]  
AL  $\leftarrow$  PC + 4

FETCH

2. RS1 
$$\leftarrow$$
 reg[AS1]

**DECODE** 

$$RS2 \leftarrow reg[AS2]$$

$$PC \leftarrow AL$$

۵

1. IN 
$$\leftarrow$$
 mem[PC]  
AL  $\leftarrow$  PC + 4

FETCH

2. RS1  $\leftarrow$  reg[AS1]

 $RS2 \leftarrow reg[AS2]$ 

 $\mathrm{PC} \leftarrow \mathrm{AL}$ 

3.  $AL \leftarrow RS1 + RS2$ 

EXECUTE

DECODE

1. IN 
$$\leftarrow$$
 mem[PC]  
AL  $\leftarrow$  PC + 4

2. RS1 
$$\leftarrow$$
 reg[AS1]  
RS2  $\leftarrow$  reg[AS2]  
PC  $\leftarrow$  AL

3. 
$$AL \leftarrow RS1 + RS2$$

$$4. \ \operatorname{reg}[\mathrm{AD}] \leftarrow \mathrm{AL}$$

## Przykład – instrukcja OP, sygnały sterujące

2. 
$$pc_sel = ALU$$
  $pc_we$ 

- 4.  $rd_sel = AL$  ALU\_WRITEBACK  $rd_we$

**FETCH** 

## Przykład – instrukcja LOAD

1. IN 
$$\leftarrow$$
 mem[PC]  
AL  $\leftarrow$  PC + 4

FETCH

#### Przykład – instrukcja LOAD

1. IN 
$$\leftarrow$$
 mem[PC]

$$AL \leftarrow PC + 4$$

2. RS1 
$$\leftarrow$$
 reg[AS1]

$$RS2 \leftarrow reg[AS2]$$

$$\mathrm{PC} \leftarrow \mathrm{AL}$$

FETCH

DECODE

### Przykład – instrukcja LOAD

1. IN 
$$\leftarrow$$
 mem[PC]  
AL  $\leftarrow$  PC + 4

2. RS1 
$$\leftarrow$$
 reg[AS1]  
RS2  $\leftarrow$  reg[AS2]  
PC  $\leftarrow$  AL

3. AL  $\leftarrow$  RS1 + IMM

 $\mathsf{MEM}_{-}\mathsf{ADDR}$ 

### Przykład – instrukcja LOAD

1. IN 
$$\leftarrow$$
 mem[PC]  
AL  $\leftarrow$  PC + 4

2. RS1 
$$\leftarrow$$
 reg[AS1]  
RS2  $\leftarrow$  reg[AS2]

3. AL 
$$\leftarrow$$
 RS1 + IMM

4. 
$$DT \leftarrow mem[AL]$$

FETCH

DECODE

MEM ADDR

MEM\_READ

### Przykład – instrukcja LOAD

1. IN 
$$\leftarrow$$
 mem[PC]  
AL  $\leftarrow$  PC + 4

2. RS1 
$$\leftarrow$$
 reg[AS1]

3. 
$$AL \leftarrow RS1 + IMM$$

 $RS2 \leftarrow reg[AS2]$ 

4. 
$$DT \leftarrow mem[AL]$$

5. 
$$\operatorname{reg}[AD] \leftarrow DT$$

$$\mathsf{MEM}_{-}\mathsf{ADDR}$$

MEM READ

MEM\_WRITEBACK

# Przykład – instrukcja LOAD, sygnały sterujące

- 2.  $pc\_sel = ALU$  DECODE  $pc\_we$
- 3. alu\_we MEM\_ADDR alu\_op = ADD, alu\_asel = RS1, alu\_bsel = IMM
- 4.  $addr_sel = AL$  MEM\_READ

1. IN 
$$\leftarrow$$
 mem[PC]  
AL  $\leftarrow$  PC + 4

FETCH

1. IN 
$$\leftarrow$$
 mem[PC]  
AL  $\leftarrow$  PC + 4

2. RS1 
$$\leftarrow$$
 reg[AS1]

$$RS2 \leftarrow reg[AS2]$$

$$\mathrm{PC} \leftarrow \mathrm{AL}$$

$$\mathrm{AL} \leftarrow \mathrm{PC} + \mathrm{IMM}$$

FETCH

DECODE

1. IN 
$$\leftarrow$$
 mem[PC] FETCH AL  $\leftarrow$  PC + 4

2. 
$$RS1 \leftarrow reg[AS1]$$
  
 $RS2 \leftarrow reg[AS2]$   
 $PC \leftarrow AL$   
 $AL \leftarrow PC + IMM$ 

3. jeśli RS1 = RS2, PC 
$$\leftarrow$$
 AL

BRANCH

DECODE

1. IN 
$$\leftarrow \text{mem}[PC]$$
  
AL  $\leftarrow PC + 4$ 

2.  $RS1 \leftarrow reg[AS1]$  DECODE

$$RS2 \leftarrow reg[AS2]$$

$$PC \leftarrow AL$$

$$AL \leftarrow PC + IMM$$

3. jeśli RS1 = RS2, PC 
$$\leftarrow$$
 AL

**BRANCH** 

**FETCH** 

Operację czerwoną trzeba wykonać zanim kontroler się dowie, że ma wykonywać BRANCH!

# Przykład – instrukcja BRANCH, sygnały sterujące

3. 
$$pc\_sel = AL$$
  $pc\_we = take\_br$   $alu\_op = BRANCH, alu\_asel = RS1, alu\_bsel = RS2$ 

FETCH

DECODE

BRANCH









### Aspekty wydajnościowe

• Procesor jednocyklowy:



• Procesor wielocyklowy:

